大数据的关键技术(一)
一、大数据处理的基本流程——采集、存储、分析和实现①数据采集->②数据归整->③数据存储->④数据处理->⑤数据呈现二、大数据技术数据采集宇预处理 数据采集和管理 数据处理宇分析 数据安全与隐私保护(一)数据采集与预处理:联机分析处理(OLAP)与实时处理分析 (二)数据存储
Flink学习中之time、watermark、state
🌿今天我们来了解一下flink中的几个重要基础概念:time、watermark、state,这是flink流处理中实现数据流执行速度快和结果正确的要点,对往期内容感兴趣的同学可以看下面👇:链接: Flink学习专辑.🌰其实在前面的章节中,我们也介绍了一些时间、状态的概念,但不够深入,本篇博客
客快物流大数据项目(五十六): 编写SparkSession对象工具类
编写SparkSession对象工具类后续业务开发过程中,每个子业务(kudu、es、clickhouse等等)都会创建SparkSession对象,以及初始化开发环境,因此将环境初始化操作封装成工具类,方便后续使用实现步骤:在公共模块的scala目录的common程序包下创建SparkUtils
2022暑期实习字节跳动数据研发面试经历
🌟今天下午面试两家,字节跳动数据研发一面和百度三面,百度那边突然不面了,hr说下个星期再看看,是直接过了还是再来一面,需要和部门商量一下,先来总结一下字节跳动的面试吧。废话,对百度面试感兴趣的同学可以参考如下文章:链接: 2022百度大数据开发工程师实习面试经历.链接: spark学习之并行度、并
数字孪生是现实世界展现,“谁”能保证数据的真实性与安全性呢?
数字孪生是现实世界展现,“谁”能保证数据的真实性与安全性呢?
react从入门到入魔
react从入门到入迷React的基本使用创建虚拟dom的两种方式使用jsx创建虚拟dom使用原生js创建虚拟domReact的基本使用直接上hello word案例 <!DOCTYPE html><html lang="en"><head> <met
mysql-5.5.20-win32.msi安装教程详解
系列文章目录文章目录系列文章目录前言一、打开任务管理器,其中三种方式如下:1.找到下方任务栏,在空白处点击鼠标右键,找到"任务管理器",点击打开,即可开启任务管理器2.使用快捷键,先按“Ctrl+Alt”键,然后再按“Delete”键,选择"任务管理器"3.使用快捷键“Win+R”,弹出运行窗口,在
Elasticsearch(吃个泡面的时间了解清楚)
亮点Elasticsearch 官方入门视频涵盖:如何下载/运行 Elasticsearch,及其先决条件 通过CRUD REST API 添加,更新,检索和删除数据 基本的文本分析,包括标记和过滤 基本搜索查询 聚合:Elasticsearch 的面向和分析的主功能其他资源:Elasticsear
Hadoop—在私有云上创建与配置虚拟机
Hadoop-在私有云上创建与配置虚拟机一、登录私有云(一)查看【概览】(二)查看【镜像】(三)查看【实例】二、创建网络(一)创建网络三、创建实例(一)基于WindowsThinPC镜像创建hw_win7实例(二)基于centos7创建master实例(三)基于centos7创建slave1实例(四
hive之连续登录问题
目录1、开窗函数的格式2、窗口范围图例连续登录问题:限制时间段内登录次数问题:1、开窗函数的格式FUNCTION_NAME([argument_list])OVER ([PARTITION BY window_partition,…][ORDER BY window_ordering, … [ASC
大数据学习笔记55:搭建HBase环境
1. 搭建HBase单机版环境2. 搭建HBase伪分布式环境3. 搭建HBase完全分布式环境
Hadoop—在私有云上创建与配置虚拟机
一、登录已有的私有云账号(1)查看【概览】(2)查看【镜像】(3)查看【实例】二、创建项目、用户与网络(1)创建项目 - huawei(2)创建用户 - huawei(3)创建网络 - LAN192三、创建实例(1)基于WindowsThinPC镜像创建hw_win7实例(2)基于centos7创建
数据湖之Hudi(9):使用Spark向Hudi中插入数据
目录0. 相关文章链接1. 开发说明2. 环境构建2.1. 构建服务器环境2.2. 构建Maven项目3. Maven依赖4. 核心代码0. 相关文章链接大数据基础知识点 文章汇总1. 开发说明Apache Hudi最初是由Uber开发的,旨在以高效率实现低延迟的数据库访问。Hudi 提供了Hudi
Flink查询关联Hbase输出
1、前言大家在开发Flink的时候,很多时候会把某些固定的维度信息存储在Hbase或者Redis等这些第三方库里,已方便来跟流发生关联查询输出。本文将从如何本地搭建一个Hbase环境开始讲起,到如何构建一个Hbase公共调用类,到如何构建一个异步调用Hbase的公共代码,再到最后实际调用代码后的输出
大数据场景下的消息队列:Kafka3.0快速入门
大数据场景下的消息队列:Kafka3.0快速入门
Spark环境搭建(保姆级教程)
Spark 是一个大规模数据处理的统一分析引擎本文主要介绍Spark的相关配置,以及各种模式的代码提交,包括Local,Standalone,YARN。文末有相应资源下载网盘链接。
Flink旁路输出特性简单实例:按照股价对股票进行数据分流并写出到文本文件
关于旁路输出的官方文档:https://nightlies.apache.org/flink/flink-docs-release-1.14/zh/docs/dev/datastream/side_output/除了由 DataStream 操作产生的主要流之外,我们还可以产生任意数量的旁路输出结果
入门ClickHouse和Elasticsearch
❄️大多数同学都知道数据有mysql、mongodb、oracle、nosql等等,这些是我们在学校能接触到最多的数据库,今天我们就来认识2个企业中比较常用的数据库clickhouse和elasticsearch。对大数据感兴趣的同学可以参考下面的文章👇:hadoop专题: hadoop系列文章.
云原生与大数据、AIoT、开源的碰撞之路——专访小米崔宝秋
类似于云原生+大数据这样技术的“强强联合”将成为云原生时代的发展趋势,运维和基础软件开发者、服务端和前端开发者所关注的技术点各有不同。
Hadoop:HDFS总结
Hadoop:HDFS总结HDFS架构NameNode(nn): 管理文件的元数据,如文件名、文件目录结构、文件属性等信息【NN运行时,元数据是存储在内存中,从而保证响应时间】元数据只保留在内存中是非常不可靠的,所以也需要持久化到磁盘。NN内部有两类文件用于持久化元数据:fsimage文件,以fsi